这项工作开发了具有严格效率的新算法,可确保无限的地平线模仿学习(IL)具有线性函数近似而无需限制性相干假设。我们从问题的最小值开始,然后概述如何从优化中利用经典工具,尤其是近端点方法(PPM)和双平滑性,分别用于在线和离线IL。多亏了PPM,我们避免了在以前的文献中出现在线IL的嵌套政策评估和成本更新。特别是,我们通过优化单个凸的优化和在成本和Q函数上的平稳目标来消除常规交替更新。当不确定地解决时,我们将优化错误与恢复策略的次级优势联系起来。作为额外的奖励,通过将PPM重新解释为双重平滑以专家政策为中心,我们还获得了一个离线IL IL算法,该算法在所需的专家轨迹方面享有理论保证。最后,我们实现了线性和神经网络功能近似的令人信服的经验性能。
translated by 谷歌翻译
我们考虑大规模的马尔可夫决策过程(MDP),具有未知的成本函数,采用随机凸优化工具,以解决模仿学习的问题,包括从有限一套专家演示学习政策。我们采用学徒学习形式主义,这承担了假设真正的成本函数可以表示为一些已知功能的线性组合。现有的逆钢筋学习算法具有强烈的理论保证,但是计算得昂贵,因为它们使用强化学习或计划算法作为子程序。另一方面,最先进的政策梯度基于基于梯度的算法(如IM-Conifforce,IM-TRPO和Gail),在具有挑战性的基准任务中实现了重大的经验成功,但在理论方面并不顺利。强调绩效的非渐近保证,我们提出了一种方法,即通过将问题作为占用措施的单个凸优化问题的问题绕过学习成本函数的中间步骤,提出了一种从专家演示中绕过策略的方法。我们开发了一种计算高效的算法,并在提取的策略的质量上导出了高信心遗憾,利用随机凸优化的结果以及近似线性编程的近似有效,用于解决前向MDP。
translated by 谷歌翻译
我们考虑了具有未知成本函数的大规模马尔可夫决策过程,并解决了从有限一套专家演示学习政策的问题。我们假设学习者不允许与专家互动,并且无法访问任何类型的加固信号。现有的逆钢筋学习方法具有强大的理论保证,但在计算上是昂贵的,而最先进的政策优化算法实现了重大的经验成功,但受到有限的理论理解受到阻碍。为了弥合理论与实践之间的差距,我们使用拉格朗日二元介绍了一种新的Bilinear鞍点框架。所提出的原始双视点允许我们通过随机凸优化的镜头开发出无模型可释放的算法。该方法享有实现,低内存要求和独立于州数量的计算和采样复杂性的优点。我们进一步提出了同等的无悔在线学习解释。
translated by 谷歌翻译
Deep spiking neural networks (SNNs) offer the promise of low-power artificial intelligence. However, training deep SNNs from scratch or converting deep artificial neural networks to SNNs without loss of performance has been a challenge. Here we propose an exact mapping from a network with Rectified Linear Units (ReLUs) to an SNN that fires exactly one spike per neuron. For our constructive proof, we assume that an arbitrary multi-layer ReLU network with or without convolutional layers, batch normalization and max pooling layers was trained to high performance on some training set. Furthermore, we assume that we have access to a representative example of input data used during training and to the exact parameters (weights and biases) of the trained ReLU network. The mapping from deep ReLU networks to SNNs causes zero percent drop in accuracy on CIFAR10, CIFAR100 and the ImageNet-like data sets Places365 and PASS. More generally our work shows that an arbitrary deep ReLU network can be replaced by an energy-efficient single-spike neural network without any loss of performance.
translated by 谷歌翻译
视觉奇数任务被认为是对人类的普遍独立的分析智能测试。人工智能的进步导致了重要的突破,但是与人类在此类分析智能任务上竞争仍然具有挑战性,并且通常诉诸于非生物学上的架构。我们提出了一个具有生物学现实的系统,该系统从合成眼动运动中接收输入 - 扫视,并与结合新皮质神经元动力学的神经元一起处理它们。我们介绍了一个程序生成的视觉奇数数据集,以训练扩展常规关系网络和我们建议的系统的体系结构。两种方法都超过了人类的准确性,我们发现两者都具有相同的基本推理基本机制。最后,我们表明,具有生物学启发的网络可实现卓越的准确性,学习速度更快,所需的参数比常规网络更少。
translated by 谷歌翻译
Terahertz(THZ)无线网络有望催化第五代(B5G)时代。但是,由于THZ链接的定向性质和视线需求以及THZ网络的超密集部署,因此需要面对中等访问控制(MAC)层的许多挑战。更详细地,通过合并能够在复杂且经常变化的环境中提供“实时”解决方案的人工智能(AI)来重新思考用户协会和资源分配策略的需求变得明显。此外,为了满足几种B5G应用的超可靠性和低延迟需求,需要采用新颖的移动性管理方法。在此激励的情况下,本文提出了一种整体MAC层方法,该方法可以实现智能用户协会和资源分配以及灵活和适应性移动性管理,同时通过阻止最小化最大化系统的可靠性。更详细地,记录了一个快速和集中的联合用户协会,无线电资源分配和避免避免阻塞的元数据映射机器学习框架,从而最大化THZ网络的性能,同时将关联延迟最小化大约三个幅度范围。 。为了支持访问点(AP)覆盖区域,移动性管理和避免阻塞,讨论了深入的强化学习(DRL)进行梁选择方法。最后,为了支持邻居AP的覆盖范围之间的用户移动性,报告了一种基于AI辅助快速通道预测的主动手部机制。
translated by 谷歌翻译
自动语音识别(ASR)是一种能力,使程序能够将人类演讲进入书面形式。人工智能(AI)的最新发展导致基于深神经网络的高精度ASR系统,例如经常性神经网络传感器(RNN-T)。然而,这些方法的核心组件和所执行的操作从强大的生物对应,即人脑中脱离。另一方面,基于尖刺神经网络(SNNS)的生物启发模型中的当前发展,落后于准确性并主要关注小规模应用。在这项工作中,我们通过从大脑中发现的多样性神经和突触动态吸引灵感来重新审视生物学上可合理的模型并大大提高他们的能力。特别是,我们介绍了模拟轴体和轴突突触的神经连接概念。基于此,我们提出了具有丰富神经突触动态的新型深度学习单元,并将它们集成到RNN-T架构中。我们首次展示,与现有的深度学习模型相比,大规模ASR模型的生物学现实实际实施可以产生竞争性能水平。具体地,我们表明这种实现具有若干优点,例如降低的计算成本和更低的延迟,这对于语音识别应用至关重要。
translated by 谷歌翻译